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摘 要 言语 理解 是 听 者 接受 外 部 语音 输入 并 且 获 得 意义 的 心理 过 程 。 日 常 交流 中 ， 听 觉 言 
语 理解 受 多 义 度 节 人 律 信息 的 影响 ， 常 见 有 韵律 结构 节律 、 语 境 节律 、 和 说 话 者 身体 语言 节 
律 三 方面 外 部 节律 。 它 们 改变 听 者 在 言语 理解 中 的 音素 判别 、 词 汇 感知 以 及 言语 可 懂 度 等 
过 程 。 内 部 节律 表现 为 大 脑 内 神经 振荡 ， 其 能 够 表征 外 部 言语 输入 在 不 同时 间 尺 度 下 的 层 
级 特征 。 外 部 节律 性 刺激 与 内 部 神经 活动 的 神经 夹带 能 够 优化 大 脑 对 言语 刺激 的 处 理 ， 并 
受到 听 者 自 上 而 下 的 认 知 过 程 的 调节 进一步 增强 目标 言语 的 内 在 表征 。 我 们 认为 它 可 能 是 
实现 内 外 节律 相互 联系 并 共同 影响 言语 理解 的 关键 机 制 。 对 内 外 节律 及 其 联系 机 制 的 揭示 
能 够 为 理解 言语 这 种 在 多 层级 时 间 尺 度 上 具有 结构 规律 的 复杂 序列 提供 了 一 个 研究 窗口 。 
关键 词 节律 ， 言 语 理解 ， 神 经 振荡 ， 神 经 夹带 ， 自 上 而 下 调节 
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活动 中 的 拍手 ， 踏 步 或 发 声 通常 按照 一 定 的 周期 循环 往复 。 在 人 类 演化 进程 中 节律 无 处 不 
在 ， 它 们 承载 着 信息 传递 的 重要 作用 (Kotz et al., 2018)， 是 社会 交流 和 互动 的 重要 媒介 。 长 
期 以 来 ， 节 律 研究 主要 关注 于 感知 觉 加 工 ， 忽 视 了 其 在 更 为 复杂 的 言语 理解 中 的 作用 。 直 
到 近期 ， 研 究 者 开始 逐渐 重视 节律 对 言语 理解 的 影响 ， 并 通过 记录 听 者 内 部 的 神经 活动 揭 
示 节 律 影响 的 作用 机 制 。 

节律 的 内 在 时 间 组 织 调节 着 个 体 间 沟通 和 互动 方式 ， 口 头 言语 作为 人 类 社会 中 重要 的 
信息 交流 渠道 具有 丰富 节律 特性 。 在 判定 对 象 是 否 有 具有 节律 特性 时 存在 两 种 方式 ， 一 种 强 
调 时间 上 规律 性 ， 另 一 种 强调 时 间 上 的 结构 关系 。 前 者 定义 的 节律 可 以 被 称 为 协调 节律 或 
周期 性 节 得 
© 如 ， 钟 表 转 动 过 程 中 发 出 的 “滴答 、 滴 答 ” 声 响 和 正常 心脏 的 起 伏 跳动 ， 这 些 都 具有 了 时间 
上 的 规律 性 或 近似 规律 性 。 而 言语 的 节律 性 更 偏向 后 者 的 定义 ， 即 一 个 给 定 的 属性 或 属性 
间 的 组 合 在 一 段 时 间 跨 度 中 的 稳定 关系 (Fujii & Wan, 2014; Ramus et al., 1999)， 例 如 ， 树 干 
中 的 硬结 让 锯 木 出 现 卡 顿 ， 但 我 们 仍旧 会 认为 伐木 工 来 回 的 动作 具有 节律 性 。 

在 语言 学 领域 中 ， 早 期 对 西班牙 语 中 “机 关 枪 ” 式 ， 英 语 的 “ 莫 尔 斯 电码 ” 式 与 日 语 
发 音 的 感知 使 研究 者 关注 于 语系 间 不 同 言语 层 的 等 时 性 现象 ， 据 此 将 节律 感知 划分 为 重音 


= 计时 (stress-timed) 、 音 节 计 时 (syllable-timed) 和 亚 音节 Cmora) 三 类 形式 (Ladefoged,， 
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， 它 意味 着 固定 间隔 和 模式 的 不 断 重复 (White, 2014; White et al., 2012). il 
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1975; Pike, 1945; Ramus et al., 1999) 。 但 这 种 分 类 方式 过 于 强调 单元 间 的 等 时 性 ， 在 多 语 
系 的 语音 信号 分 析 中 无 法 为 “等 时 理论 ”提供 经 验 支 持 (Dauer, 1983; Ramus, 2002; 
Roach, 1982) 。 后 来 基于 元 音 持续 时 间 变 化 的 分 类 方法 更 具有 实证 性 ， 它 依照 口语 中 元 音 
所 占 时 间 比 例 的 不 同 试 图 建立 起 一 种 更 为 广泛 的 节律 量化 方式 (Ramus et al., 1999) 。 如 重 
音 计 时 相 比 音节 计时 语系 ， 元 音 持 续 时 间 更 加 多 变 (Ling etal., 2000) 。 这 些 分 类 方式 说 
明言 语 相 比 于 单一 振荡 器 形成 的 特定 间隔 的 重复 活动 并 不 具有 客观 的 等 时 性 的 周期 特点 ， 
但 仍 可 以 被 直观 地 感知 为 节律 活动 (Jadoul et al., 2016; Kayser, 2019; Turk & Shattuck- 
Hufnagel, 2013) 。 与 音乐 中 的 节奏 感 相 近 的 是 ， 言 语 中 的 单个 属性 ， 如 音调 变化 或 音节 持 
续 时 间 长 短 ， 也 能 带 来 的 主观 上 的 节律 感受 (Dellwo, 2006) 。 但 只 专注 于 个 别 属性 的 度量 
并 不 能 宫 括 言语 节律 的 所 有 特征 ， 言 语 的 节律 感知 还 取决 于 一 系列 其 他 因素 ， 包 括 整体 响 


度 变化 和 语 速 高 低 等 (Nooteboom, 1997) 。 这 些 因 素 共 同 作 用 于 听 者 的 知觉 加 工 过 程 ， 使 听 
者 感受 到 言语 中 的 节律 性 。 
言语 理解 是 听 者 根据 外 部 言语 输入 〈 如 目标 语音 ) 和 背景 信息 (如 语 境 或 非 言 语 信 


EL) 获得 意义 的 心理 过 程 \ 杨 玉 务 ，2021) ， 包 括 音节 ， 词 汇 和 句子 不 同 层级 的 加 工 


(Farbood et al., 2013; Sheng et al., 2019)。 说 话 者 口语 在 韵律 结构 上 具有 一 定 的 节律 特性 ， 如 
重音 位 置 和 语 速 快慢 等 ， 这 些 节律 的 改变 会 影响 听 者 对 目标 语音 的 理解 水 平 。 当 说 话 者 的 
说 话语 速 或 音节 产生 速率 超出 正常 范围 (3 - 8 Hz) 时 ， 言 语 可 懂 度 会 出 现 显 著 的 降低 
(Ahissar et al., 2001)。 相 比 之 下 ， 背 景 语 境 节 律 则 会 改变 听 者 的 音节 层面 感知 ， 如 事先 呈现 
一 串 有 规律 的 纯音 序列 ， 其 呈现 速率 的 不 同 会 改变 个 体感 知 后 续 出 现 的 辅音 ， 即 节律 较 快 
的 纯音 序列 会 使 被 试 将 辅音 更 多 知觉 为 /w/ 而 不 是 /b/ (Wade & Holt, 2005) 。 背 景 信 息 不 单 
表现 在 声学 层面 的 变化 上 ， 由 于 言语 语音 的 时 域 包 络 、 发 声 者 的 声 道 活动 与 肢体 动作 三 者 
之 间 是 高 度 关联 的 ， 这 决定 了 影响 言语 理解 还 涉及 非 言 语 节 律 ， 如 说 话 者 的 身体 语言 
(body language) 。 身 体 语言 包括 面部 运动 、 身 体 姿势 、 手 势 等 活动 (Miiller et al., 2013), 
说 话 者 的 面部 运动 往往 与 言语 的 时 域 包 络 起 伏 具 有 相似 的 节律 特性 ， 这 有 助 于 听 者 更 好 理 
解 言 语 信 息 (Ghazanfar & Takahashi, 2014) 。 据 此 本 文 提 及 的 外 部 节律 定义 为 听觉 言语 理 
解 过 程 中 能 够 对 言语 理解 产生 影响 的 客观 世界 中 具有 节律 特征 的 物理 输入 。 我 们 将 围绕 言 
语 理解 涉及 的 言语 输入 和 背景 信息 所 包含 的 三 类 常见 外 部 节律 ， 分 别 为 韵律 结构 节律 、 语 
境 节律 和 说 话 者 身体 语言 节律 ， 阐 述 其 在 言语 理解 中 音素 、 词 汇 和 句子 三 个 层级 的 影响 ， 
借 此 说 明 外 部 节律 对 言语 理解 的 作用 。 

听 者 大 脑 是 如 何 利用 外 部 节律 促进 或 改变 言语 理解 的 呢 ? 这 一 过 程 被 认为 和 内 部 节律 
即 神经 振荡 (neural oscillation) ， 一 系列 颅 内 神经 元 集群 节律 性 地 、 同 步 性 地 电 活 动 ， 存 


在 明显 联系 (Haegens & Golumbic, 2018; Kösem et al., 2016; Zion-Golumbic & Schroeder, 
2012) 。 神 经 振荡 作为 皮层 神经 元 集群 活动 被 认为 介 导 了 不 同 的 认 知 加 工 过 程 ， 包 括 言 语 
加 工 ， 抑 制 和 干扰 等 Censen et al., 2012; Schroeder & Lakatos, 2009) 。 近 期 研究 认为 内 部 节 


律 活动 可 能 受 外 部 节律 所 影响 ,表现 出 内 外 节律 随时 间 推 移 相 趋 近 的 现象 (Lakatos et al., 


2019; Obleser & Kayser, 2019) ， 这 种 现象 被 称 为 神经 夹带 (neural entrainment) 。 当 内 部 
节律 与 外 部 目标 言语 发 生 夹带 时 ， 听 者 表现 出 更 好 的 言语 理解 成 绩 (Riecke et al., 2018; 


Vanthornhout et al., 2018) 。 同 时 ， 言 语 理解 的 多 种 高 级 认 知 过 程 同样 能 够 调节 神经 夹带 的 


表现 ， 如 选择 性 注意 (Arnal & Giraud, 2012; Helfrich et al., 2019; Lakatos et al., 2013) 、 先 


验 语法 知识 (Ding et al., 2016; Ding et al., 2017) 和 语 境 预期 (Broderick et al., 2019) 等 。 


基于 此 ， 我 们 认为 神经 夹带 可 能 是 言语 理解 过 程 中 实现 内 外 节律 相互 联系 与 共同 作用 的 关 
键 机 制 。 

综 上 ， 本 文 首先 论述 三 种 常见 的 外 部 节律 如 何 影响 听觉 言语 理解 ， 说 明 节律 对 言语 理 
解 影响 的 普遍 性 。 接 着 ， 我 们 总 结 了 作为 内 部 节律 的 神经 振荡 在 言语 理解 中 的 功能 。 最 后 
结合 神经 夹带 在 言语 加 工 中 的 作用 与 其 受 自 上 而 下 认 知 过 程 的 影响 ， 讨 论 神经 夹带 在 言语 
理解 中 作为 联系 内 外 节律 机 制 的 可 能 性 。 未 来 研究 需要 从 不 同 层级 、 不 同 尺度 和 不 同 背 景 
中 去 探究 节律 在 听觉 言语 理解 中 的 意义 。 

2 外 部 节律 与 言语 理解 

言语 产生 是 随 着 时 间 推 移 而 展开 的 ， 这 使 得 时 间 规 律 对 听 者 理解 信息 至 关 重 要 。 为 了 
理解 言语 内 容 ， 听 者 需要 根据 外 部 节律 特征 从 持续 的 语音 流 中 感知 音素 、 音 节 、 单 词 和 短 
语 的 时 间 组 织 (Ding & He, 2016; Kotz & Schwartze, 2010; Peelle & Davis, 2012) 。 此 部 分 我 
们 依据 言语 输入 和 背景 信息 将 影响 言语 理解 的 外 部 节律 划分 为 三 种 常见 类 型 ， 主 要 涉及 韵 
归结 构 节 律 、 语 境 节 律 和 说 话 者 身体 语言 节律 。 

2. 1 韵律 结构 节律 改变 句子 可 懂 度 

言语 的 韵律 结构 节律 在 阅读 和 口语 交流 中 表现 各 不 相同 。 视 觉 阅读 中 词 与 词组 合 而 形 
成 的 音节 数目 的 搭配 会 动态 影响 局 部 短语 分 析 和 整体 句子 整合 (Luo, Y & Zhou, 2010; Luo, 
Y et al., 2015) ， 视 觉 输入 为 主 的 阅读 并 不 能 直接 提供 韵律 结构 信息 而 需要 读者 借助 内 部 表 
征 如 默读 等 方式 实现 。 此 部 分 主要 关注 于 听觉 场景 中 外 部 节律 的 韵律 结构 节律 ， 即 口语 中 


的 音节 长 短 、 音 节 间 间隔 和 重音 分 布 等 特征 上 (Dellwo, 2006; Ramus et al., 1999; FA et 
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al., 2021) 。 

音节 间 间 隔 能 够 直接 影响 言语 可 懂 度 。 研 究 者 通过 对 句子 进行 时 间 上 的 压缩 降低 了 音 
节 间 停顿 时 间 ， 导 致 整体 语 速 加 快 ， 结 果 发 现 听 者 对 句子 的 可 懂 度 出 现 了 剧烈 的 下 降 
(Bosker & Ghitza, 2018; Ghitza & Greenberg, 2009) 。 听 者 表现 出 难以 加 工 韵律 结构 节律 被 
破坏 的 言语 刺激 ， 但 这 可 能 是 源 自 于 句子 加 工 依赖 于 特定 节律 的 感觉 输入 ， 又 或 者 时 间 压 
缩 后 音节 内 的 声学 结构 被 破坏 使 听 者 难以 识别 。 为 了 回答 这 一 问题 ， 研 究 者 将 压缩 后 的 言 
语 波形 进行 等 距 的 切 分 ， 切 分 后 每 段 内 的 音节 仍旧 处 于 压缩 状态 ， 而 后 在 每 个 片段 后 加 入 
一 段 无 声 的 间隔 以 产生 人 为 的 节律 特性 。 听 者 加 工 这 类 句子 的 可 懂 度 得 到 了 恢复 。 需 要 注 
意 的 是 ， 只 有 在 插入 的 间隔 是 以 固定 规律 形式 时 言语 可 懂 度 才 会 恢复 ， 无 规律 的 间隔 则 没 
有 任何 效应 (Ghitza & Greenberg, 2009) 。 所 以 听 者 对 于 言语 的 理解 依赖 于 言语 自身 节律 
特性 ， 在 压缩 后 的 句子 中 加 入 无 声 间 隔 的 过 程 可 以 理解 为 是 对 句子 内 音节 的 “重新 打包 ” 


(repackage) ， 即 将 时 域 上 
助 听 者 预测 包 内 音节 的 最 大 
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韵律 结构 节律 对 可 懂 度 的 影 


分 割 成 不 同 部 分 。 这 些 包 以 规定 的 速率 传导 至 双 耳 ， 协 
传输 速率 从 而 在 一 定 程度 上 恢复 了 言语 可 理解 性 。 
站 反映 了 听觉 系统 在 处 理 不 同 传输 速率 的 信息 流 时 的 自 适 


应 性 。 自 然 言语 中 ， 音 节 间 停顿 的 长 短 主要 涉及 到 两 个 方面 因素 (Ghitza & Greenberg, 


2009) ， 一 个 是 人 类 发 音 器 官 的 生物 力学 特性 和 大 脑 的 神经 动力 学 特性 。 发 音 器 官 /大 脑 内 


H 


在 振荡 导致 口 层 运动 和 言语 的 时 域 包 络 大 约 为 5 Hz 的 节律 ， 以 此 调制 沉默 时 间 的 长 短 ， 另 
一 个 因素 是 言语 的 层次 韵律 结构 。 例 如 ， 当 一 个 音节 在 一 个 单词 内 时 ， 它 后 面 的 停顿 期 通 
aN 


常 很 短 ， 但 当 它 与 一 个 更 高 层 的 语言 结构 (例如 韵律 词 、 韵 律 短语 和 语调 短语 ) 的 边界 重 


时 ， 沉 默 会 逐渐 拉 长 。 言 语 中 的 沉默 给 大 脑 提 供 了 额外 的 时 间 来 处 理 间 隐 之 前 的 音节 ， 妆 


沉默 时 间 被 缩小 或 扩大 并 违反 自然 语言 的 时 间 规 律 时 ， 会 增加 听 者 加 工 所 需 的 负载 ， 进 而 


破坏 句子 的 可 懂 度 (Ding & He, 2016). 
除了 停顿 的 长 短 外 ， 停 顿 的 位 置 也 被 认为 能 够 改变 听 者 对 于 言语 的 节律 感知 ， 主 要 涉 


及 口语 句子 中 韵律 边界 (prosodic boundary) 。 这 些 边界 与 感知 停顿 、 边 界 前 音节 延长 和 短 


语 末 尾 的 音 高 都 具有 联系 (Li & Yang, 2009, 2010), ， 所 以 韵律 边界 的 感知 能 够 促进 听 者 将 记 


Dill 


语 切 分 成 不 同 层次 的 组 块 ， 并 与 口语 的 感知 流畅 性 和 可 理解 性 密切 相关 TARA, 2021; 
于 泽 等 人 ，2010) ， 汉 语 作为 声调 言语 在 口语 的 结构 分 析 、 语 义 加 工 和 情绪 感知 等 方面 均 受 


到 韵律 边界 的 影响 (Li & Yang, 2010; Li et al., 2019) 。 近 期 研究 以 汉语 中 同时 可 理解 为 偏 正 


结构 (modifier noun construction〉 或 述 宾 结构 (narrative object structure) 的 歧义 短语 为 材 


料 发 现 ， 当 上 听 者 注意 到 韵律 信息 时 ， 韵 律 边 界 会 改变 听 者 对 歧义 短语 的 结构 分 析 过 程 (Li et 
al., 2019) 。 韵 律 边界 能 够 在 卜 义 语 境 下 帮助 听 者 进行 句 式 结构 的 分 析 ， 通 过 消除 结构 上 的 
歧义 从 而 促进 言语 可 懂 度 。 此 外 ， 汉 语 韵 律 中 的 重音 位 置 还 能 够 改变 听 者 对 言语 中 不 同位 


置 词汇 的 选择 性 注意 ， 使 得 重音 后 的 词汇 被 更 强 的 加 工 (Li & Ren, 2012) 。 
2.2 语 境 节律 改变 词汇 与 音素 感知 


目标 言语 前 后 的 声学 场景 我 们 一 般 会 称 为 语 境 (context) ， 可 以 在 时 间 上 与 目标 语音 


相 邻 或 不 相 邻 (Stilp, 2020)。 语 境 对 言语 理解 的 影响 主要 源 于 语 速 快慢 ， 这 是 因为 在 词汇 感 
知 或 边界 切 分 中 听 者 需要 依赖 语 境 中 提供 的 相对 速率 线索 (Brown et al., 2011; Dilley et al., 


2010; Dilley & McAuley, 2008)。 说 话 者 语 速 变化 一 般 通 过 句子 中 元 音 和 辅音 间 间 隔 调节 来 


实现 \Dellwo, 2006) ， 而 这 两 类 音素 间 间 隔 的 分 布 能 够 反应 语句 中 节律 性 (Ling et al., 2000; 


Ramus et al., 1999)。 当 说 话 者 的 语 速 较 慢 时 ， 听 者 容易 将 句子 中 所 包含 的 一 个 虚词 CO: 


or BK are) 忽略 ， 即 在 知觉 层面 


词汇 消失 的 现象 (Dilley & Pitt, 2010)。 有 趣 的 是 ， 如 


果 把 语 速 加 快 听 者 反而 会 知觉 到 句子 中 本 来 没有 的 虚词 。 这 种 现象 会 随 着 语 境 时 间 拉 长 而 
加 剧 ，Baese-Berk 等 人 (2014) 同时 操纵 了 全 局 语 境 〈global-context， 整 段 材 料 ) 的 语 速 和 
远 端 语 境 〈distal-context， 目 标 词 所 在 句子 ) 的 语 速 ， 发 现 随 着 时 间 推 移 全 局 语 速 对 目标 单 
词 数量 感知 的 影响 增 大 ， 即 随 着 语 速 的 减 慢 单词 数量 感知 呈现 下 降 趋 势 。 这 些 发 现 表 明 随 
着 语 境 节 律 的 加 速 或 减 慢 ， 听 者 对 言语 中 词汇 数量 的 知觉 会 向 补偿 方向 移动 以 确保 感知 保 
持 稳定 ， 即 听 者 会 自发 调整 对 于 后 续 出 现 词汇 的 持续 时 间或 者 边界 位 置 的 主观 感知 来 契合 
整体 语 境 节律 。 值 得 注意 的 是 ， 这 一 现象 可 能 特异 于 语 境内 容 ， 人 为 降低 语 境内 语音 的 可 
懂 度 或 者 采用 其 他 音调 序列 时 ， 听 者 对 单词 数量 的 识别 将 不 受 影响 (Pitt et al., 2016). 

语 速 除了 改变 听 者 对 语 境 下 词汇 数量 的 判断 ， 还 会 影响 单词 内 元 音 和 辅音 的 辨识 , 这 是 
因为 言语 感知 很 大 程度 上 依赖 于 从 特定 频率 信息 中 恢复 音 位 线索 (Di Liberto et al., 2019; 
O'Brien et al., 2020) 。 例 如 ， 一 个 快速 的 语音 环境 会 使 听 者 更 偏好 于 将 一 个 模糊 元 音 判 断 
为 长 元 音 (如 : /a, a), 因为 相 邻 语 境内 的 音节 持续 时 间 会 改变 后 续 音 节 持 续 时 间 的 主观 
评估 ， 快 节律 的 语 境 会 使 听 者 对 客观 时 间 的 判断 变 短 使 后 续 元 音 听 起 来 相对 较 长 (Bosker, 


Sjerps, et al., 2020; Kosem et al., 2018; Reinisch, 2016) 。 语 境 速率 对 音素 间 语 音 边界 的 影响 


yay 


=~ 


被 称 为 语音 边界 移 位 (phonetic boundary shift, PBS) (Maslowski et al., 2019; Reinisch, 
2016) 。 这 种 现象 同样 发 生 在 辅音 感知 中 ， 即 较 快 节律 的 语 境 对 /ba/-/wa/ 的 模糊 音节 判断 
中 ， 听 者 会 更 大 可 能 性 认为 是 /wa/ (Wade & Holt, 2005) 。 言 语 中 音素 知觉 受 语 境 带 来 的 
外 部 节律 影响 ， 由 于 在 非 言语 环境 下 这 种 现象 同样 会 被 诱发 ， 如 纯音 序列 (Bosker, 
2017) ， 所 以 这 种 速率 依赖 的 知觉 被 认为 涉及 一 般 的 听觉 过 程 。 
oa 知觉 从 来 不 是 对 感觉 信息 的 客观 登记 。 就 像 任何 形态 的 感知 一 样 ， 言 语感 知 是 相对 于 
语 境 的 ， 它 会 依据 先前 的 经 验 和 背景 发 生 改 变 〈Stilp, 2020) 。 上 述 研究 表明 在 外 部 节律 的 
诱导 下 ， 听 者 对 给 定语 境 下 感知 到 的 单词 数量 和 音节 判别 会 发 生 改 变 。 这 些 结果 有 助 于 解 
释 在 言语 信号 失真 情况 下 ， 语 音 识别 能 力 下 降 的 原因 。 
2.3 身体 语言 节律 对 言语 理解 影响 

身体 语言 是 一 种 非 语言 交流 模式 ， 说 话 者 通过 面部 活动 和 手 部 摆动 等 方式 辅助 自身 的 
信息 表达 (Holler & Levinson, 2019) 。 在 面对面 的 交流 中 听 者 同时 感知 到 的 说 话 者 的 身体 活 
动 和 言语 节律 往往 在 特定 频率 上 匹配 ， 这 有 利于 它们 之 间 的 耦合 ， 就 像 “ 手 舞 足 蹈 ”的 演 


讲 者 会 更 容易 让 听众 关注 于 演讲 内 容 Morillon & Baillet, 2017; Morillon et al., 2014; 


Rimmele et al., 2018) 。 


说 话 者 发 音 器 官 内 的 一 系列 协作 运动 体现 在 声 道 的 开放 和 缩小 循环 中 〈Abbs et al., 
1984; Browman & Goldstein, 1992; Cho et al., 2019; Proctor et al., 2019) 。 例 如 ， 在 发 音 /b/ 时 
需要 封闭 声 道 的 前 部 ， 因 此 口 层 和 下 巴 的 运动 之 间 有 一 个 协同 过 程 ， 以 实现 完全 闭合 。 目 
前 许多 研究 都 集中 在 言语 中 的 声音 和 运动 的 相互 作用 上 ， 如 听 者 在 观测 说 话 者 的 口唇 运动 
时 ， 通 过 人 为 改变 运动 速率 会 影响 听 者 对 实际 言语 的 语 速 判定 (Bosker, Peeters, et al. 
2020) 。 而 在 多 说 话 人 场景 中 ， 研 究 者 还 发 现 说 话 者 的 口唇 运动 信息 能 够 提升 听 者 对 目标 
言语 的 识别 成 绩 (Wu et al., 2013) 。 听 者 对 言语 的 加 工 除 了 利用 说 话 者 的 口唇 运动 ， 还 会 
根据 其 自发 的 手 部 运动 来 理解 言语 Cani & Bucciarelli, 2017; RRL, 2020) 。 说 话 者 为 了 表 
明言 语 中 的 重点 往往 会 利用 手势 的 摆动 突显 重音 位 置 ， 研 究 者 发 现 说 话 人 的 手 部 两 相 运动 
(上 下 摆动 手臂 ) 会 显著 改变 听 者 对 词汇 中 的 重音 感知 位 置 (Bosker & Peeters, 2021) 。 这 些 


结果 都 在 说 明言 语 知觉 不 仅 受 听觉 层面 外 部 节律 的 影响 还 受 说 话 者 的 非 听 觉 的 运动 节律 的 


听 者 能 够 利用 非 声学 的 身体 语言 节律 信息 促进 言语 理解 ， 可 能 说 明 听 者 和 说 话 者 之 间 
存在 某 种 重合 的 先 验 知识 。 言 语 知觉 的 运动 理论 (motor theory of speech perception) 认为 
说 话 者 和 听 者 会 共享 一 套 相 似 的 神经 运动 指令 (neuromotor command) ， 当 听 者 加 工 说 话 
者 的 运动 信息 并 将 其 映射 到 自身 的 指令 时 ， 这 将 有 助 于 听 者 理解 说 话 者 的 言语 内 容 
(Poeppel & Assaneo, 2020) 。 

综 上 ， 外 部 节律 对 听 党 言语 理解 的 影响 存在 于 广泛 听觉 与 非 听 觉 刺激 中 ， 语 境 语 速 能 
够 改变 听 者 对 后 续 音 素 的 判别 和 词汇 数量 的 估计 ， 言 语 内 在 节律 能 够 改变 句子 可 惟 度 的 高 
低 ， 身 体 语 言 节律 可 以 改变 重音 位 置 感知 。 但 是 我 们 的 大 脑 是 如 何 利用 这 些 节律 信息 指导 
言语 感知 ， 接 下 来 我 们 将 从 神经 元 集群 的 节律 性 振荡 方面 进行 讨论 。 

3 外 部 节律 影响 言语 理解 的 神经 机 制 
早期 关于 听觉 言语 理解 的 大 脑 内 部 过 程 研究 主要 采用 事件 相关 电位 (event-related 
potentials, ERPs) 和 功能 磁 共振 成 像 (functional magnetic resonance imaging, fMRI) 技术 展 


开 。 音 节 探 测 、 言 语 理解 涉及 N1-P2、N400、P600 等 事件 相关 电位 成 份 的 参与 (Bridwell 


et al., 2018; Broderick et al., 2018; Morris & Klerke, 2016) 。 近 年 来 随 着 研究 方法 的 改进 ， 通 
过 颅 内 电极 记录 和 时 频 分 析 等 手段 ， 大 脑 内 自发 的 神经 振荡 开始 成 为 关注 的 对 象 ， 从 神经 
振荡 层面 揭示 听觉 言语 理解 的 研究 越 来 越 多 。 本 部 分 将 关注 言语 加 工 中 大 脑 的 内 部 节律 变 
化 ， 以 及 神经 夹带 现象 在 其 中 的 作用 。 

3.1 听 者 的 内 部 节律 一 一 神经 振荡 


言语 本 身 的 节律 特性 作为 其 内 在 属性 是 如 何在 大 脑 中 得 以 表征 ， 以 及 外 部 节律 如 何 影 
响 言 语感 知 ?为 了 回答 这 些 问 题 ， 研 究 者 开始 关注 大 脑 内 部 节律 活动 的 作用 (Ding etal., 


et 


2016; Zion-Golumbic & Schroeder, 2012; Haegens & Golumbic, 2018)。 在 早期 ， 通 过 头皮 记 
录 到 的 电 活动 变化 一 直 被 认为 是 大 脑 活 动 的 背景 噪音 ， 后 来 研究 者 开始 意识 到 神经 元 集群 
的 振荡 活动 体现 了 神经 元 兴奋 性 的 周期 变化 Bishop, 1933; Reichle, 2010)， 如 振荡 的 瞬时 相 
位 反映 了 神经 集群 在 给 定时 刻 的 兴奋 性 水 平 (excitability level) 。 当 振荡 的 兴奋 性 阶段 被 
调整 ， 使 神经 元 集群 高 兴奋 性 与 任务 相关 的 感官 输入 相 一 致 ， 对 齐 的 输入 将 得 到 最 优 处 理 
(Schroeder & Lakatos, 2009)， 所 以 大 脑 的 内 部 节律 可 能 是 完成 外 部 节律 性 刺激 加 工 的 理想 


E 


Lx o 


神经 振荡 依照 频率 高 低 的 常 被 划分 为 delta 频带 (1-4 Hz) ~ theta 频带 (4-10 Hz) 、 


alpha 频带 (8-15 Hz) 、beta 频带 (12-30 Hz) 和 gamma 频带 (30-200 Hz) 。 在 听觉 言语 
加 工 中 ，theta 频带 振荡 被 认为 能 够 将 输入 的 连续 语音 信号 分 解 为 离散 的 单词 单元 ， 而 delta 
频带 振荡 则 把 分 割 的 单词 结合 为 更 高 层 的 基于 语法 或 语义 组 合 的 言语 结构 (Kösem et al., 
2016; Ding et al., 2016) 。 近 期 在 汉语 的 韵律 语 境 加 工 中 也 发 现 ， 韵 律 节律 可 能 通过 增强 与 
语音 加 工 相关 的 频带 活动 促进 语音 理解 。 相 比 于 不 规则 背 律 节律 的 语 境 ， 规 则 韵律 节律 能 
够 诱发 听 者 在 加 工 目标 名 词 前 的 beta 频带 和 目标 名 词 后 的 alpha 频带 增强 (Li et al., 
2019) 。 而 更 高 频 的 gamma 频带 的 包 络 变化 则 被 发 现 能 够 表征 语音 在 功率 谱 上 的 多 层次 编 


码 并 受到 听 者 目标 选择 的 影响 (Zion-Golumbic & Schroeder, 2012; Mesgarani & Chang, 


2012) 。 

与 言语 中 的 层级 结构 相似 ， 不 同 频率 的 神经 振荡 也 趋向 于 以 一 种 层级 化 的 模式 相互 耦 
合 。 大 脑 内 的 低频 振荡 〈 如 theta 频带 ) 可 能 反应 了 音节 层面 加 工 ， 而 高 频 振 荡 〈 如 
gamma 频带 ) 更 多 表征 了 音素 或 发 音 特 征 等 信息 ， 频 带 间 的 相互 耦合 反应 了 远 距 离 脑 区 信 


息 交 流 以 及 协调 全 局 神经 网 络 的 信息 整合 (Baltus & Herrman, 2016) 。 在 A1, Gamma 


频带 振幅 随 theta 振荡 的 相位 系统 变化 ，theta 振幅 还 与 delta (1-2 Hz) 相位 耦合 (Lakatos 
et al., 2007; Lakatos et al., 2005) 。 有 趣 的 是 这 类 效应 受 言 语 可 懂 度 的 影响 ， 相 比 于 倒 放言 
语 《〈 无 法 理解 的 ) ， 加 工 自然 言语 (可 理解 的 ) 时 ， 听 者 的 左 侧 额 下 区 的 delta 频带 和 中 央 
前 回 的 theta 频带 才能 够 调节 左 侧 听 觉 区 域 25 Hz 振荡 的 相位 活动 (Park et al., 2015) 。 所 
以 不 同 节律 的 神经 振荡 能 够 表征 言语 刺激 中 不 同时 间 尺 度 的 层级 信息 ， 通 过 相互 协调 对 这 
些 信息 进行 整合 处 理 ， 完 成 听觉 言语 理解 (Kayser et al., 2015) 。 


3.2 神经 夹带 连接 内 外 节律 


外 部 节律 性 刺激 输入 时 ， 听 者 大 脑 会 记录 到 与 外 部 节律 在 相位 上 相对 齐 或 相同 频带 下 


能 量 增 大 的 现象 (Kösem et al., 2018; Obleser & Kayser, 2019) 。 这 些 过 程 被 认为 可 能 是 由 
于 持续 的 神经 振荡 的 相位 被 外 部 节律 刺激 所 “ 重 置 ” reset) TIPER (Lakatos et al., 

2009) ， 我 们 通常 将 这 种 内 部 节律 与 外 部 节律 的 时 间 对 齐 现 象 称 为 神经 夹带 。 研 究 者 一 般 
认为 神经 夹带 的 发 生 是 基于 神经 系统 自身 具有 的 节律 性 活动 ， 它 们 能 够 在 缺乏 外 界 连续 性 
刺激 输入 的 情况 下 维持 活动 ， 所 以 夹带 能 够 在 外 部 刺激 消失 后 维持 一 段 时 间 (Kösem et al., 
2018; Tass et al., 1998) 。 常 见 的 神经 夹带 计算 方法 包括 外 部 刺激 和 大 脑 活动 之 间 的 相位 相 
干 性 ， 以 及 以 正 向 (如 时 间 响 应 函数 ) 或 反 向 (如 刺激 重 构 ) 的 方式 连接 大 脑 和 刺激 的 回归 模 


型 (Fiedler et al., 2019; Fuglsang et al., 2017; Zhang & Ding, 2017) 。 所 以 神经 夹带 有 时 也 被 


称 为 同步 化 (synchronization〉， 或 外 部 刺激 为 听觉 言语 时 还 被 称 为 言语 追随 (speech 
tracking) 反应 。 

在 言语 理解 中 ， 外 部 节律 可 能 源 于 音节 、 词 汇 边界 或 其 他 声学 线索 。 神 经 夹带 能 够 通 
过 这 些 外 部 节律 特征 完成 语音 分 析 ， 从 连续 的 声音 信号 中 提取 离散 的 语言 成 分 (Haegens & 


Golumbic, 2018; Obleser & Kayser, 2019) 。 经 典 神 经 夹带 观点 认为 产生 夹带 的 神经 活动 相 


位 与 言语 中 韵律 或 音节 边界 一 致 〈Giraud & Poeppel, 2012; Peelle & Davis, 2012) ， 例 如 通 


过 delta 节律 振荡 追踪 韵律 线索 (Bourguignon et al., 2013) , theta 节律 振荡 反映 音节 和 词 


汇 结构 (Doelling et al., 2014; Ding et al., 2016) 。Luo 和 Poeppel(2007) 通 过 记录 听 者 在 加 工 


自然 言语 情况 下 的 皮层 脑 磁 图 信号 发 现 ， 大 脑 的 theta 节律 振荡 的 相位 模式 稳定 地 追随 口 
语句 子 中 的 音节 节律 。 此 研究 还 发 现 当 言 语 与 噪声 相互 嵌 合 后 ， 外 部 言语 的 节律 性 丧失 以 
及 句子 可 懂 度 下 降 会 破坏 听 者 的 神经 夹带 反应 。 除 了 其 他 声学 刺激 干扰 外 ， 言 语 本 身 的 语 
速 也 会 影响 神经 夹带 ,一旦 语 速 过 快 ， 听 者 将 难以 跟 上 句子 内 容 使 夹带 被 中 断 (Ahissar et 
al., 2001) 。 有 趣 的 是 ， 对 于 言语 内 的 物理 声学 特征 的 夹带 是 自动 的 ， 如 睡眠 期 间 也 能 记录 


到 夹带 (Ding & He, 2016; Makov et al., 2017) 。 但 涉及 句子 内 的 语言 学 单元 则 需要 言语 被 


H 


注意 或 者 理解 时 才能 够 被 夹带 (Brodbeck et al., 2018) 。 虽 然 可 理解 性 与 语 速 快慢 的 研究 
反映 神经 夹带 在 言语 处 理 中 的 作用 ， 但 此 类 研究 仍旧 存在 一 些 问题 。 降 低语 音 可 理解 性 通 
常 涉 及 刺激 声学 的 变化 ， 因 此 观察 到 的 语音 跟踪 反应 的 差异 可 能 与 改变 的 声音 输入 有 关 


(Ding & Simon, 2012; Kosem & van Wassenhove, 2017; Steinmetzger & Rosen, 2017) 。 所 以 
未 来 研究 中 ， 探 索 言 语 理解 与 神经 夹带 的 关系 ， 需 要 仔细 控制 语音 刺激 的 声学 特性 。 


在 面对面 的 交谈 中 ， 听 者 言语 理解 受 身 体 语 言 的 影响 (Morillon & Baillet, 2017; Morillon 


= 


et al., 2014; Poeppel & Assaneo, 2020). Park A (2016) 发 现 这 一 过 程 同 样 涉及 说 话 者 运动 


与 听 者 神经 活动 的 夹带 过 程 。 他 们 通过 计算 说 话 者 口 展开 合 面积 随时 间 变 化 模式 与 听 者 初级 视 
听 皮 层 和 左 侧 运动 区 的 神经 活动 ， 发 现 二 者 在 1Hz 上 有 显著 的 夹带 效应 ， 并 且 目 标 言语 的 理解 
程度 能 被 夹带 的 同步 性 所 预测 。 听 者 大 脑 对 身体 言语 的 夹带 使 听 者 能 够 实时 利用 运动 区 “ 模 

拟 ” 的 发 声 过 程 帮助 听觉 区 预测 即将 输入 的 感觉 束 


上 激 ， 进 而 促进 言语 理解 (Morillon & Baillet, 


2017; Morillon et al., 2014). 

MIZE et SOR AM SO a TEAR. EE ZEIT 2 E EEE Aha 
律 被 听 者 感知 时 ， 大 脑 内 部 神经 活动 的 重 置 使 内 部 节律 的 变化 模式 与 外 部 节律 相似 ， 这 使 
得 相近 相位 模式 下 的 神经 活动 成 为 言语 理解 的 理想 环境 〈Haegens & Golumbic, 2018; 
Schroeder & Lakatos, 2009) 。 然 而 ， 神 经 夹带 并 非 单一 对 外 部 节律 信息 的 被 动 追随 ， 它 还 
受 听 者 主观 调控 的 影响 。 我 们 将 从 言语 理解 过 程 中 涉及 的 几 个 自 上 而 下 的 认 知 过 程 对 神经 
夹带 的 影响 ， 进 一 步 探讨 神经 夹带 在 言语 理解 的 作用 。 

4 自 上 而 下 调节 神经 夹带 对 言语 理解 的 作用 

神经 夹带 能 根据 听 者 当前 的 认 知 状态 动态 选择 或 增强 与 外 部 输入 的 同步 性 ， 便 于 大 脑 
更 有 针对 性 的 预测 目标 信息 (Lakatos et al., 2019) 。 在 言语 理解 过 程 中 ， 自 上 而 下 的 调控 


可 能 源 于 听 者 的 选择 性 注意 (Helfrich et al., 2019; Lakatos et al., 2013; Obleser & Kayser, 


2019) 、 语 法 的 先 验 知识 (Ding et al., 2016; Ding et al., 2017) 和 言语 语 境 产生 的 预期 

(Broderick et al., 2019) 等 认 知 过 程 。 
蕴 杂 的 声学 环境 使 目标 言语 理解 变 得 困难 ， 选 择 性 注意 有 助 于 放大 注意 刺激 流 与 非 注 

意 刺 激 间 的 夹带 差异 ， 前 者 与 神经 活动 的 相位 同步 有 利于 获取 更 多 的 加 工资 源 ， 后 者 则 传 
全 递 到 了 非 最 优 相位 阶段 使 其 更 容易 被 抑制 ， 这 有 助 于 嘲 杂 环境 中 的 言语 理解 (Calderone et 
al., 2014; Knudsen, 2018; Lavie, 1995; Zion-Golumbic & Schroeder, 2012) 。 多 说 话 者 的 场景 

中 ， 听 者 选择 性 注意 单一 说 话 人 的 言语 内 容 时 ， 听 觉 皮层 区 域 (如: BLEED 和 高 层级 的 

AX CU: MP BU, BTR) 都 发 现 增强 了 神经 振荡 的 振幅 调制 ， 高 级 皮层 区 域 还 表现 
出 更 明显 的 选择 性 增强 对 注意 言语 夹带 的 现象 (Golumbic et al., 2013) 。 此 外 ， 选 择 性 注 
意 还 有 助 于 身体 语言 促进 听觉 言语 理解 过 程 。 当 听 者 更 加 注意 说 话 者 的 口唇 运动 时 ， 左 侧 
运动 皮层 与 口唇 运动 间 的 夹带 增强 ， 并 且 这 种 增强 能 直接 预测 言语 理解 的 准确 性 (Park et 

al., 2016) 。 所 以 不 同 脑 区 间 的 神经 夹带 能 够 通过 选择 性 注意 建立 起 时 间 上 的 耦合 ， 提 高 脑 

区 间 的 信息 整合 的 精确 度 。 

言语 理解 过 程 需要 通过 语音 特征 检索 对 应 的 词汇 信息 ， 再 基于 听 者 先 验 的 语法 知识 组 


合成 短语 和 句子 (Poeppel et al., 2008; Townsend and Bever, 2001; Phillips, 2003) 。 在 排除 


= 


口语 韵律 和 统计 层面 线索 的 影响 下 ， 研 究 者 发 现 不 同 频率 的 皮层 活动 能 够 同时 追随 言语 中 
单词 、 短 语 和 句子 等 不 同 层次 的 抽象 语言 结构 的 时 间 进程 (Ding et al,2016) 。 不 同时 间 
尺度 的 言语 单元 的 同步 神经 夹带 可 能 预示 着 一 种 层级 区 入 模式 ， 即 更 小 的 言语 单元 表征 肉 


入 在 更 高 层次 的 言语 单元 表征 下 (Lerner et al., 2011; Christiansen et al., 2016; Poeppel et al., 
2008) ， 从 而 实现 言语 中 不 同 层级 信息 间 的 及 时 整合 (Ding et al., 2017; Ding et al., 2016) 。 
当 听 者 理解 言语 内 容 后 ， 依 据 上 下 文 产生 的 语 境 预 期 同样 能 够 影响 之 后 出 现 词汇 的 语音 包 
络 的 神经 夹带 程度 ， 即 词汇 的 语义 与 上 下 文 越 接 近 时 目标 词汇 的 皮层 脑 电 信号 的 神经 夹带 
ERIR (Broderick et al., 2019) 。 这 表明 神经 夹带 还 受到 听 者 基于 上 下 文 预测 的 影响 ， 能 够 
最 大 限度 地 提高 未 来 事件 的 可 预测 性 ， 并 精确 地 安排 资源 的 分 配 时间 (Henry et al., 

2014)， 从 而 促进 即将 到 来 的 单词 的 初级 编码 阶段 处 理 。 这 一 机 制 还 解释 了 为 什么 外 部 可 预 


神经 夹带 受 听 者 自 上 而 下 认 知 过 程 的 影响 能 够 更 好 的 表征 复杂 听觉 环境 中 的 节律 信 
乱 ， 促 进 目标 言语 的 理解 。 它 可 以 作为 一 个 “滤波 器 ”， 根 据 听 者 的 选择 性 注意 减弱 或 消 
除 高 级 脑 区 在 嘲 杂 环境 中 对 非 注意 语音 流 的 神经 响应 ;还 可 以 作为 一 个 “增益 器 ”， 依 据 
听 者 的 预期 来 增强 言语 中 相应 成 分 的 表征 和 加 工 ， 最 后 神经 夹带 可 以 作为 一 个 “连接 
器 ”， 根 据 听 者 已 有 的 先 验 知识 完成 言语 内 不 同 层级 间 成 分 或 跨 脑 区 间 信 息 的 整合 。 所 以 
听 者 的 主动 调控 使 言语 理解 过 程 中 的 关键 信息 具有 更 大 的 可 能 性 处 于 神经 元 集群 活动 的 最 


> 测 的 节律 性 刺激 相 比 不 可 预测 的 非 节律 性 刺激 更 容易 被 感知 CMaathewson et al., 2010; 
N 
© Rohenkohl et al., 2012) 。 


c 佳 兴奋 性 水 平 ， 从 而 获得 更 多 的 加 工资 源 。 据 此 我 们 认为 神经 夹带 可 能 为 外 部 节律 和 内 部 
节律 提供 了 一 座 联系 的 “桥梁 ”。 
5 讨论 


节律 时 ， 研 究 者 往往 从 语音 信号 的 时 域 层面 进行 讨论 ， 如 语音 包 络 或 声学 单 

位 的 持续 时 间 等 。 这 些 对 象 的 起 伏 变 化 构成 了 听 者 对 外 部 节律 的 感知 ， 是 构建 可 理解 言语 
过 程 所 必需 的 。 外 部 节律 能 够 帮助 听 者 关注 单词 或 它们 的 组 成 元 素 ( 如 音素 或 音节 ) 进而 促 
进 理解 。 听 者 大 脑 的 神经 振荡 作为 内 部 节律 ， 能 够 表征 与 整合 言语 内 不 同 层 级 信息 。 而 神 
经 夹带 可 能 是 实现 言语 理解 中 内 外 节律 相互 联系 的 关键 。 
5.1 外 部 节律 促进 言语 理解 
口语 中 的 词汇 间 停 顿 、 停 顿 位 置 等 韵律 结构 节律 影响 听 者 在 口语 加 工 中 可 懂 度 的 高 低 

以 及 对 卜 义 语 境 的 结构 分 析 ， 合 适 的 韵律 结构 节律 能 够 促进 正确 的 言语 理解 ， 恢 复 难 以 理 


解 的 语义 内 容 (Ghitza & Greenberg, 2009; Li & Yang, 2009, 2010)。 而 于 不 同 的 语 速 的 语 境 


则 改变 听 者 对 随后 出 现 的 音节 判别 乃至 词汇 数量 感知 (Dilley & Pitt, 2010; Bosker, Sjerps, et 
al., 2020; Reinisch, 2016)。 此 外 ， 说 话 者 在 言语 产生 过 程 中 伴随 的 同步 运动 行为 能 够 通过 视 
觉 通道 同时 与 言语 信息 传 入 听 者 大 脑 。 这 些 非 听觉 的 运动 节律 与 言语 节律 之 间 的 协同 性 能 
够 帮助 听 者 更 好 的 捕捉 目标 言语 内 容 (Bosker & Peeters, 2021; Poeppel & Assaneo, 2020) 。 
所 以 言语 理解 得 益 于 这 些 外 部 节律 特征 ， 它 们 不 但 能 够 帮助 听 者 理解 和 降低 处 理 成 本 ， 还 
能 调节 音素 、 词 汇 和 句子 层面 的 语音 处 理 。 

当 以 语音 材料 的 持续 时 间 为 对 象 研究 言语 节律 时 ， 口 语 中 声学 单元 的 持续 时 间 会 改变 


说 话 者 语 速 的 感知 。 语 速 快慢 通常 是 改变 口语 中 元 音 音程 百分比 〈the percentage of vocalic 


intervals, %V) 和 辅音 音程 的 标准 差 (the standard deviation of consonantal intervals, deltaC ) 
进而 影响 节律 感知 ， 但 这 一 现象 并 非 所 有 语种 中 都 存在 ， 如 法 语 的 语 速 快 慢 并 不 影响 
deltaC 的 变异 系数 (Dellwo, 2006; Dellwo et al., 2003 )。 所 以 不 同 语种 中 涉及 语 速 变化 是 否 
接 影响 言语 节律 感知 仍旧 存在 争议 ， 这 提示 进行 不 同 语言 中 涉及 声学 单元 持续 时 间 的 
研究 必须 关注 语 速 的 操控 。 
5.2 神经 夹带 一 一 联系 内 外 节律 的 可 能 机 制 
大 脑 神经 活动 的 揭示 使 研究 者 认为 ， 内 部 节律 性 神经 振荡 表征 了 言语 信号 ， 从 而 实现 
听 者 对 信号 中 关键 信息 的 加 工 ， 在 音节 感知 、 语 义 加 工 和 句法 理解 方面 得 到 了 证 实 (Cason 


& Schoen, 2012; Kotz & Schmidt-Kassow, 2015; Schmidt-Kassow et al., 2013) 。 近 些 年 ， 大 
量 的 研究 发 现 大 脑 内 的 神经 振荡 在 时 间 上 可 能 存在 与 外 部 节律 性 刺激 间 的 夹带 现象 

(Kösem et al., 2018; Obleser & Kayser, 2019) 。 由 于 持续 性 神经 活动 的 相位 反映 了 神经 元 
兴奋 性 的 节律 性 波动 ， 当 夹带 发 生 时 ， 产 生来 带 效应 的 神经 活动 与 外 部 刺激 在 时 间 上 相互 
对 齐 时 ， 能 够 实现 稳定 地 调整 对 输入 刺激 的 加 工 增益 (Buzsaki & Draguhn, 2004; Lakatos et 


nor 


al., 2005; Vanthornhout et al., 2018) 。 所 以 我 们 认为 神经 夹带 是 实现 言语 理解 中 内 外 部 节 得 
相互 联系 的 可 能 机 秆 

神经 夹带 现象 广泛 的 存在 于 外 部 节律 影响 言语 理解 的 过 程 中 。 它 为 大 脑 如 何 表 征 言 i 
中 不 同 层级 信息 提供 了 途径 。 对 言语 刺激 的 夹带 并 非 发 生 于 某 一 特定 频段 中 ， 从 反应 声学 
特征 的 Gamma 频段 到 语音 的 时 域 包 络 的 theta 频段 ， 或 是 汉语 中 字 ， 词 和 句 中 更 低 的 
delta 频带 ， 不 同 层级 下 的 节律 大 脑 都 有 相对 应 的 神经 振荡 产生 夹带 (Giraud & Poeppel, 
2012; Peelle & Davis, 2012) 。 神 经 夹带 还 说 明了 韵律 结构 节律 或 语 境 节 律 的 建立 对 当下 言 
语 理解 的 影响 可 能 是 由 于 自身 所 具有 的 自我 维持 特性 。 即 在 事先 输入 的 节律 刺激 变化 后 已 
经 产生 的 夹带 仍旧 可 以 持续 一 段 时 间 进 而 影响 当前 输入 言语 刺激 的 加 工 〈K6sem et al. 


= 
o 
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2018) 。 对 身体 言语 的 夹带 有 助 于 跨 脑 区 间 信 息 交 流 的 锁 时 性 ， 确 保 运动 信息 能 够 与 言语 
言 息 精 确 的 整合 (Park et al., 2016) 。 


听 者 自 上 而 下 认 知 过 程 调节 神经 夹带 为 选择 性 注意 、 先 验 知识 和 预期 在 言语 理解 中 的 


更 为 集中 地 表征 目 


al., 2013; Knudsen, 2018; Lavie, 1995) 。 


作用 提供 了 生理 层面 解释 。 听 者 的 选择 性 汉 


=e 意 通过 神经 夹带 使 得 高 兴奋 性 的 神经 集群 能 够 


标 刺激 ， 进 而 提高 目标 言语 的 识别 率 (Calderone et al., 2014; Golumbic et 


反之 ， 神 经 活动 会 阻碍 无 法 对 齐 的 感觉 刺激 的 表征 


建立 ， 因 为 它们 会 随机 地 放大 或 衰减 信息 (Lakatos et al., 2019) 。 先 验 的 语法 知识 则 通过 


同时 对 言语 


al., 2017) 。 


中 不 同 层级 单位 的 夹带 实现 层级 间 的 整合 的 精确 性 (Ding et al., 2016; Ding et 


而 当 听 者 理解 上 下 文 内 容 时 ， 对 于 之 后 出 现 词汇 的 预期 能 够 加 强 在 加 工 词汇 


的 夹 带 强度 ， 


mm 


时 


促进 词汇 的 早期 发 音 编 码 加 工 (Broderick et al., 2019) 。 所 以 我 们 认为 神经 


夹带 不 单 是 一 种 被 动 相应 外 部 节律 性 刺激 的 大 脑 活 动 ， 还 能 够 根据 听 者 的 认 知 状态 创建 一 


个 合适 的 当前 言语 理解 的 加 工 环境 。 它 作为 量化 两 种 节律 性 活动 一 致 性 关系 的 指标 ， 已 成 


oF 
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影响 言语 理解 。 


5.3 存在 的 


长 期 以 来 关于 大 脑 对 感觉 刺激 的 反应 是 否 与 


WX (Doelling & Assaneo, 2021) ， 大 脑 的 神经 夹带 是 否 由 神经 振荡 所 产生 也 缺少 直接 证 


挑战 


与 大 脑 之 间 双 向 关系 的 方法 ， 允 许 研究 者 探究 节律 或 听 者 认 知 过 程 是 如 何 


内 在 的 、 持 续 的 神经 振荡 有 关 一 直 存 在 争 


据 。 研 究 者 需要 严谨 地 判断 结果 中 的 夹带 现象 是 由 外 部 刺激 和 内 在 神经 振荡 之 间 的 耦合 产 


生 , 还 是 一 


来 自 于 声 


音 的 规 得 


ny 


连 串 刺激 引起 的 一 


系列 神经 元 诱发 电位 。 在 许多 情况 下 ， 所 谓 的 夹带 可 能 只 是 
性 输入 而 引起 的 一 系列 神经 元 诱发 响应 ， 而 非 真 正 的 神经 振荡 〈Obleser 


& Kayser, 2019; Poeppel & Assaneo, 2020) 。 


随 着 非 侵 入 性 脑 刺激 技术 的 发 展 ， 研 究 者 不 在 局 限于 被 动 记录 听 者 的 大 脑 活 动 ， 而 开 


台 采 用 外 加 干预 的 形式 探究 神经 振荡 对 言语 理解 的 影响 。 经 颅 交 流 电 刺 激 LACS) 相 比 于 
经 颅 磁 刺激 TMS) 是 一 种 完全 无 声 的 刺激 手段 ， 可 以 排除 任务 中 实验 外 声音 的 干扰 


(Feher et al., 2017; Raco et al., 2016) 。 


当 上 听 者 在 加 工 言语 刺激 时 对 其 颗 叶 区 施加 tACS， 


干扰 theta 频段 神经 振荡 的 活动 ， 结 果 发 现 受 


反 ， 如 果 将 言语 刺激 的 包 络 作为 
的 言语 理解 和 
齐 ， 有 助 了 


听觉 刺激 对 


F 听 皮层 对 连续 听觉 


到 干扰 的 神经 活动 导致 神经 夹带 破坏 ， 并 表现 


出 言语 可 懂 度 成 绩 的 下 降 (Riecke et al., 2018; Wilsch et al., 2018; Zoefel et al., 2018) 。 相 
刺激 模 态 时 ， 对 头皮 的 刺激 能 够 提高 听 者 在 噪声 环境 下 


€J] (Keshavarzi & Reichenbach, 2020) 。tACS 在 刺激 频率 和 相位 上 与 节律 性 


TAFRIJA (Wilsch et al., 2018; Zoefel et al., 
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2018) 。 


提供 神经 振荡 在 言语 知 
允许 通过 检查 其 功能 颖 


未 来 研究 中 ， 无 论 是 控制 神经 振荡 与 外 部 刺激 的 同步 化 还 是 去 同步 化 ， 都 有 助 于 


觉 中 的 作用 的 更 直接 证 据 。 并 且 这 种 对 大 脑 振 荡 的 “实验 性 ”影响 


吉 果 来 确定 大 脑 振 荡 是 否 


(Vosskuhl et al., 2018) 。 


6 总 结 


节律 、 和 说 话 者 身体 语言 


解 。 其 次 ， 我 们 描述 了 听 者 内 部 神经 振荡 与 神经 夹带 现象 在 言语 


后 ， 我 们 根据 神经 夹带 受 
律 的 关键 机 制 。 


言 节律 三 个 常见 的 外 部 节 


因果 驱动 大 脑 功能 ， 而 不 是 一 种 副 现 象 活动 


听觉 言语 理解 涉及 多 尺度 的 内 外 部 节律 共同 参与 。 我 们 首先 通过 韵律 结构 节律 、 语 境 


律 ， 揭 示 了 外 部 节律 能 够 影响 听觉 言 语 理 
理解 过 程 中 的 作用 。 最 


听 者 自 上 而 下 认 知 过 程 的 影响 ， 探 讨 神经 夹带 可 能 是 联系 内 外 节 
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The role of rhythm in auditory speech understanding 


Abstract: Speech understanding is a mental process in which the listener receives external speech 
input and acquires meaning. In daily communication, speech comprehension is influenced by 
multi-scale rhythmic information, which usually includes the rhythm of prosodic structure, the rate 
of context, and the speaker's body language. They alter the listeners' phoneme discrimination, 
word perception, and speech intelligence in auditory speech understanding. Internal rhythms are 
neural oscillations in the brain, which can represent the hierarchical characteristics of external 
speech input at different time scales. The neural entrainment of external rhythmic stimulus and 
internal neural activity can optimize the brain's processing of speech stimulus and further enhance 
the internal representation of target speech by the top-down modulation of the listener's cognitive 
process. We think that it may be the key mechanism to build the interrelationship between internal 
and external rhythms and jointly affect speech understanding. The discovery of its mechanism can 
provide a window for the study of speech, which is a complex sequence with structural rules on 


multi-level time scales. 


Keywords: rhythm, speech understanding, neural oscillation, neural entrainment, top-down 


modulation 


